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Введение. Предложенный в статье быстрый программный 
алгоритм арифметического кодирования предназначен для 
сжатия цифровых изображений. Показано, каким образом 
сложность алгоритма арифметического кодера зависит от 
критериев сложности (при этом размер входа не учитывает- 
ся). В процессе работы определены наиболее вычислительно 
сложные части алгоритма арифметического кодера. Выпол- 
нена оптимизация производительности их программной реа- 
лизации. 

Кодеки с новым алгоритмом сжимают без учета межкадро- 
вой разницы фото- и видеоматериалы, полученные при ди- 
станционном зондировании водных объектов. 

Материалы и методы. В представленной научной работе 
использована подборка спутниковых снимков акватории 
Азовского моря. При этом оптимизирован программный 
алгоритм арифметического кодера, проведено теоретическое 
исследование, выполнен вычислительный эксперимент. 
Результаты исследования. Увеличена производительность 
программной реализации арифметического кодера на приме- 
ре видеокодека УР9. Для измерения времени выполнения 
произведены многочисленные запуски эталонного и моди- 
фицированного кодеков. Сравнение среднего времени их 
исполнения показало, что производительность модифициро- 
ванного кодека на 5,21 % выше. Прирост общей производи- 
тельности для арифметического декодирования составил 
п 

Обсуждение и заключения. Увеличение скорости работы 
новейших алгоритмов сжатия цифровых фото- и видеоизоб- 
ражений позволяет применять их на мобильных вычисли- 
тельных платформах, в том числе в составе бортовой элек- 
троники беспилотных летательных аппаратов. Теоретические 
результаты данной работы расширяют методы анализа слож- 
ности алгоритма в среднем случае. Они могут использоваться 
в ситуации, когда количество шагов алгоритма зависит не 
только от размеров входа, но и от неизмеримых критериев 
(например, от схемы обращения к общей оперативной памя- 
ти со стороны параллельных процессоров). 
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Введение. Мониторинг состояния акватории зачастую проводят с помощью беспилотных летательных 
аппаратов (БПЛА), ведущих аэрофотосъемку в видимом и инфракрасном диапазонах. Технические возможно- 
сти мобильной камеры, которой оснащен БПЛА, накладывают ряд ограничений на оборудование, обрабатыва- 
ющее и хранящее снятый материал до возвращения БПЛА. В частности, необходимо учитывать перечисленные 
ниже факторы. 

1. Энергоэффективность оборудования, которое кодирует отснятый материал, поскольку от этого 
напрямую зависит продолжительность автономной работы БПЛА. 

2. Эффективность сжатия фото- и видеоданных во время полета. Изображения в высоком разрешении 
занимают значительный объем памяти программного обеспечения (ПО), и это ограничивает количество ин- 
формации, которую может накопить БПЛА. 

Практически вся аппаратура для фото- и видеосъемки аппаратно поддерживает наиболее распространен- 
ный кодек для сжатия изображений РЕФ. Однако он уступает наиболее современным кодекам НЕУС и УР9, 
которые не только поддерживают видеопоследовательности, но и позволяют лучше сжимать отдельные изоб- 
ражения. Так, Соо1еУРУ9 демонстрирует аналогичное ЛРЕС визуальное качество по метрике 551М (структурная 
схожесть) и при этом сжимает изображения на 25—34 % сильнее [1]. В сравнении с тем же ГРЕС кодек НЕУС 
позволяет улучшить степень сжатия на 10—44 % по метрике РЗМК (пиковое соотношение сигнала к шуму) [2]. 
Однако следствием высокой степени сжатия при меньшем размере битового потока является большая вычисли- 
тельная сложность кодеков НЕУС и УР [3, 4]. Архитектура кодека ГРЕС в общем виде представлена на рис 1. 
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Рис. 1. Блок-схема работы кодека РЕС 


Здесь под УГС понимается сжатие кодами переменной длины (уапа е еп сое). Входной кадр 
разбивается на блоки фиксированного размера 8х8. Каждый из них подвергается прямому дискретному коси- 
нусному преобразованию (ДКП), квантизации коэффициентов преобразования и последующему энтропийному 
сжатию при помощи алгоритма Хаффмана [4]. Дискретное косинусное преобразование выполняется в целочис- 
ленном виде [5]. С момента принятия стандарта ГРЕС в 1992 году разработано множество быстрых алгоритмов, 
которые позволяют провести преобразование целиком в регистрах центрального процессора. Энтропийное сжа- 
тие Хаффмана также не является вычислительно сложной задачей, поэтому даже мобильные процессоры в про- 
граммном режиме выполняют сжатие и декодирование изображений ЛРЕС [6]. 

НЕУС [6] и УР9 принципиально схожи и представляют собой гибридные блочные кодеки с разбиением 
кадра на блоки переменного размера, внутрикадровым предсказанием, дискретным преобразованием и после- 
дующей фильтрацией для устранения артефактов блочности. Блок-схема работы кодека НЕУС представлена на 
рис. 2. 
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Рис. 2. Блок-схема кодека НЕУС 


Здесь аббревиатурой ЗАО обозначен фильтр с адаптивным смещением (затр]е адарнуе оЁ5е®. Помимо 
перечисленных алгоритмов реконструкции изображения в обоих кодеках применяется контекстно-адаптивное 
двоичное арифметическое энтропийное кодирование, значительно более сложное, чем сжатие Хаффмана. При 
высоком уровне визуального качества именно арифметическое кодирование занимает значительную часть об- 
щего времени работы декодера. В общем виде схема работы арифметического кодера представлена на рис. 3. 
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Рис. 3. Блок-схема арифметического кодера 


Кодеки нового поколения предполагается использовать в Том числе для сжатия изображений, 
полученных при дистанционном зондировании природных объектов. В этом случае необходимо 
оптимизировать работу гибридных блочных кодеков для обеспечения обработки фото- и видеоданных БПЛА в 
режиме реального времени. Необходимо уделить особое внимание оптимизации двоичного контекстно- 
адаптивного арифметического кодирования, ввиду его существенной вычислительной сложности. 

Цель данного исследования — ускорить работу арифметического декодера на мобильных процессорах 
архитектуры АКМ. Это позволит повысить быстродействие видеокодеков Соое УР9 и применять их в 
бортовой электронике БПЛА для дистанционного зондирования водных объектов. Применение улучшенных 
инструментов компрессии фото и видео, полученных в результате аэрофотосъемки, позволяет увеличить объем 
сохраняемых данных, повысить их визуальное качество и разрешение. 

Основная часть. К основным составляющим современного видеокодека относятся бинаризация синтак- 
сических элементов битового потока и адаптивное бинарное кодирование этих элементов в битовый поток. 
Данная стадия не подлежит векторизации и распараллеливанию, но может быть оптимизирована путем стати- 
стического анализа входных данных. Основной способ прогнозирования времени работы программы — анализ 
сложности соответствующего алгоритма. Выделяют сложность в лучшем, худшем случае и сложность в сред- 
нем. — х — входные данные алгоритма А, по которым вычисляется выход алгоритма у. Функцию затрат алго- 
ритма по времени обозначим С7(х), а функцию затрат по памяти — С2(х). Временной и пространственной 
сложностью А в худшем случае будем называть функции числового аргумента 

Тд(п) = тах|х-п Са (©), 
5$д(п) = тах» =п Сл (Х). 

Рассмотрим конечное множество входов размера п: 

Хи = {х: [|| = п}. 
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\х Е Х„ соответствует вероятность: 
В. (ЕТО: Ухехи Р.(х) = 1. 

Сложностью в среднем называют математическое ожидание: 

ТА = У хех РСА 
5А = У хех Р,(х) Сл (Х. 

Описанный подход является классическим для анализа сложности алгоритма в среднем и подробно опи- 
сан в [7, 8]. Отметим причины, по которым применение данного метода на практике может быть затруднено 
или нецелесообразно. 

1. Разница между числом шагов алгоритма в теории и количеством тактов процессора, необходимым для 
выполнения шага на практике. Так, большинство современных центральных процессоров производят сложение 
и умножение за один такт, в то время как остаток от деления вычисляется за десятки тактов. 

2. Аппаратные особенности системы памяти. В современных компьютерах применяется многоуровневая 
иерархия памяти. Ее компоненты работают на разных скоростях. Обращения к памяти занимают значительно 
больше времени, чем операции в регистрах. 

3. Оптимизирующие компиляторы и аппаратные планировщики. При сборке исполняемых файлов опти- 
мизирующие компиляторы значительно преобразовывают код, не меняя автомат состояний программы. Аппа- 
ратные планировщики центрального процессора изменяют порядок исполнения инструкций для большей про- 
изводительности и предсказывают условные переходы, а контроллеры кэша производят чтение из памяти бло- 
ками. 

4. В случае программной реализации алгоритмов на процессорах общего назначения программные ком- 
поненты взаимно влияют друг на друга. Например, планировщик задач разделяет процессорное время, и парал- 
лельные процессы, имеющие несколько потоков, могут выполняться на переменном числе ядер процессора. 

Предлагаемая модификация метода анализа сложности алгоритма служит теоретическим дополнением 
для практических инструментов измерения производительности — таких, например, как профилирование и 
инструментация кода программы. Впервые метод разбиения входов алгоритма на классы сложности был пред- 
ставлен в [9]. Рассмотрим алгоритм А и множество всех возможных входных данных: 


С: (91, 92 ... т 

А также все возможные выборки из (, различные по размеру и составу: 
Ра 22 

бе 9 бе 
Множество критериев сложности реализации алгоритма (например, число циклов процессора, время исполне- 
НИЯ ИТ. П.): 

0С;: д: > К. 
Множество критериев сложности: 
ДО бе 


Данное множество обладает перечисленными ниже свойствами. 
1. УМ, 0>Е А: <. 5%, — все элементы А различны. 
2. Усс;Е А разбивает С на множество классов эквивалентности по сложности 
С (а) = {4 п 9 ...}. 
3. Все выборки из С (&;) имеют одинаковую сложность: 
50 Е А, 90Е Е С(0,), и: 96 > т, КЕ [0, |С (© Пт, Е В. 

Итак, все элементы А различны, поэтому их можно переупорядочить так, чтобы функция сложности от 
критерия была неубывающей на всем множестве критериев. Ожидаемая сложность схожа с оценками сложно- 
сти алгоритма в среднем для дискретной и непрерывной вероятности сложности. Для дискретного случая: 

К(А) = ХА п; Ре, 
для непрерывного случая: 
В(А) = ], таЕ(т). 

Применим рассматриваемый метод для анализа сложности арифметического кодека. Процесс энтропий- 
ного сжатия [ 10, 11] можно разделить на составляющие части. 

1. Бинаризация, или преобразование кодируемого символа (синтаксического элемента сжатого битового 
потока) в строку, состоящую из нулей и единиц (бинарную строку). 

2. Моделирование контекста для сжатия синтаксических элементов в обычном режиме. Для синтаксиче- 
ских элементов, чье статистическое распределение близко к нормальному, данный этап не выполняется, и они 
кодируются в режиме обхода (Бураз$). 
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3. Арифметическое кодирование бинарной строки. 
Рассмотрим более подробно схему арифметического декодирования кодека Соозе УР9, а именно ту 
часть, которая связана с субэкспоненциальным кодированием синтаксических элементов. 
Представим алгоритм субэкспоненциального кодирования в общем виде [12]. На первом шаге вычисля- 
ются значения переменных: 
№ К" 
— ыы п: т > 2*, 
т 0:п < 2* 
Ь-К+1:п > 2, 
где А — параметрическое значение, для кодека Соозе УР9 оно равно 4. 
На втором шаге унарный код и(и + 1) бит дополняется младшими битами п. Длина кода равна: 
К+1:п < 2* 
210851] - К+2:п > 2^. 
Таким образом, декодирование литерала сводится к декодированию составляющих его бит в цикле. Для 


и+1+т=] 


оптимизации производительности данного алгоритма важно знать распределение вероятности длин литералов. 
Литералы, занимающие в сжатом битовом потоке наибольшее количество бит (такие, как коэффициенты обрат- 
ного преобразования и вектора движения), кодируются сериями, поэтому высока вероятность, что в сжатом 
битовом потоке распределение длин литералов будет вырожденным с многочисленными повторами элементов 
с одинаковым значением. Для проверки этой гипотезы собраны экспериментальные данные о распределении 
длин литералов на наборе спутниковых снимков акватории Азовского моря (табл. 1). 

Таблица 1 





[Доиназитраиби" —_ — 
[Вероны [09 [0 198 [85 0 [186 _ 


Наиболее вероятными являются литералы длиной 3, 4 и 6 бит. Максимальная возможная длина литерала 


для данной последовательности составляет всего 6 бит. Этот факт важен для программной оптимизации функ- 
ции субэкспоненциального декодирования литерала. В рамках оптимизации реального кодека нас в первую 
очередь интересует критерий времени исполнения. Для получения множества сложностей В: {7%,...,7%} будем 
профилировать производительность программы. Множество уникальных элементов А составит множество кри- 
териев сложности времени исполнения А. На основе полученных данных для оптимизации применены пере- 
численные ниже подходы. 

1. Сохранение результатов вычисления длины литерала для декодирования серий литералов одинако- 
ВОЙ ДЛИНЫ. 

2.  Размотка цикла субэкспоненциального декодирования литерала. 

3. Более эффективный алгоритм расчета числа бит в литерале. 

4. Более эффективное использование регистров процессора непосредственно внутри функции арифме- 
тического декодирования. 

Реализация пунктов | и 4 достаточно очевидна, поэтому рассмотрим более подробно пункты 2 и 3. Внут- 
ри функции субэкспоненциального декодирования происходит составление декодированного литерала по би- 
там, декодированным из сжатого битового потока. В данном случае узким местом является цикл с переменным 
количеством итераций. Его можно заменить набором з\ус|-сазе без конструкции ФгеаК в конце. Данная техни- 
ка известна как метод Даффа (БиЁР?з деусе). Она позволяет заменить несколько итераций цикла последователь- 
ным выполнением инструкций без необходимости условных переходов. Величина битового сдвига — констан- 
та, которую не нужно считывать из регистра — счетчика цикла. 


Листинг 1: Оригинальная функция декодирования литерала 


айс Е ур9_геа@_ Шега|(ур9 геадет *Бг, п 6165) 
{ 
шей = 0, 616; 
Гог (616 = Би — 1; МЕ>= 0; ВЕ —) 
2 |= Ур9 теаа_ Биг) << БЕ; 
гебати 7; 


} 
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Листинг 2: Модифицированная функция декодирования литерала 


айс Е ур9_геа@_ Шега(ур9_геадет *Бг, пё 6165) { 


гес1${ег 117 = 0; 

5уиев (и -1){ 
сазе 6: 7 |= ур9 теаа(бт, 128) << 6; 
сазе 5: 7 |= ур9 теа4а(фт, 128) << 5; 
сазе 4: 7 |= ур9 теаа(бт, 128) << 4; 
сазе 3: 7 |= ур9 теаа(фт, 128) << 3; 
сазе 2: 7 |= ур9 теаа(бт, 128) << 2; 
сазе 1:7 |= ур9 теаа(бт, 128) << 1; 
сазе 0: 7 |= ур9 теа4(бт, 128); 

ЬгеаК; 

} 


гебаги и; 


} 


Еще одно узкое место — расчет числа бит литерала в цикле уве [13]. Данное решение плохо тем, что 
число итераций цикла непредсказуемо. Вместо него был использован быстрый алгоритм подсчета бит [14, 15], 
который выполняет расчет за фиксированное число шагов без использования условных переходов. 


Листинг 3: Быстрый подсчет числа бит в литерале 
Оп$1 пед тпбу; // 32-битный аргумент 

Кест%ег ип51е пе ши; // переменная для числа бит 
ге1${ег ипз1епей 1 $; 

г = (у > 0хЕЕЕЁР) << 4; 

У—-Е 

5 = (у > 0хЕР) << 3; 

у >>= ЗШЙ; 

гЕ $; 

5ый = (у > 0хЕ) << 2; 

у >>= $; 

гЕ $; 

5 = (у > 0х3) << 1; 

у >>= $; 

гЕ $ И; 

г |= (У>> 1); 





Для измерения времени выполнения произведены многочисленные запуски эталонного и модифициро- 
ванного кодеков. При этом сравнивалось среднее время их исполнения. Выяснилось, что производительность 
модифицированного кодека на 5,21 % выше. Прирост общей производительности для арифметического деко- 
дирования составил 7,33 %. 

Выводы. Проведена оптимизация работы арифметического кодера в составе видеокодека на примере 
стандарта Соозе УР9. Для решения поставленной задачи предложена модификация метода анализа сложности 
алгоритма в среднем. В основе данного подхода — разбиение множества входов на классы эквивалентности по 
сложности. Рассмотренный метод позволяет прогнозировать сложность алгоритма в среднем для тех случаев, 
когда количество шагов алгоритма и время его исполнения зависят от сложно измеримых параметров, что 
характерно для контекстно-адаптивного арифметического кодирования. Предложенный метод применен для 
оптимизации скорости работы арифметического двоичного кодера (на примере кодека Соозе УР9) 
применительно к задачам сжатия изображений, полученных при дистанционном зондировании водных 
объектов. Результаты работы позволяют применить передовые методы сжатия фото- и видеоданных, 
полученных при аэрофотосъемке водных объектов. Таким образом можно увеличить объем накапливаемых 
данных, повысить визуальное качество и разрешение отснятого материала на 25—34 % (по метрике визуального 
качества 551М) и увеличить скорость работы арифметического кодера на 7 %. 
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